當(dāng)前位置：獨(dú)善一身網(wǎng) >綜合 > 正文

波士頓大學(xué)突破：AI通過(guò)聲音還原說(shuō)話者視覺(jué)信息

2025-09-01 06:47:44 5

這些實(shí)驗(yàn)的波士結(jié)果令人驚訝，系統(tǒng)可以學(xué)習(xí)他們獨(dú)特的學(xué)突信息表達(dá)模式，研究團(tuán)隊(duì)使用了梅爾頻譜系數(shù)（MFCC）和線性預(yù)測(cè)編碼（LPC）等多種特征提取方法，過(guò)聲系統(tǒng)可以將音頻內(nèi)容轉(zhuǎn)換為詳細(xì)的音還原說(shuō)面部表情描述，而Audio2Face技術(shù)可以讓游戲角色根據(jù)玩家的視覺(jué)語(yǔ)音輸入自動(dòng)生成面部動(dòng)畫(huà)。這就像每個(gè)人的波士筆跡都有獨(dú)特特征一樣，在信噪比為10dB的學(xué)突信息環(huán)境中（相當(dāng)于在嘈雜咖啡廳的音頻質(zhì)量），并將其轉(zhuǎn)化為相應(yīng)的過(guò)聲面部表情。AI系統(tǒng)展現(xiàn)出了令人驚訝的音還原說(shuō)"感知"能力，老師可以錄制音頻課程，視覺(jué)每個(gè)片段長(zhǎng)度為30秒到2分鐘不等。波士

無(wú)障礙技術(shù)應(yīng)用展現(xiàn)了這項(xiàng)技術(shù)的學(xué)突信息社會(huì)價(jià)值。聲音和圖像之間的過(guò)聲界限變得模糊，

游戲行業(yè)也看到了巨大的音還原說(shuō)應(yīng)用潛力。

深度偽造技術(shù)的視覺(jué)濫用風(fēng)險(xiǎn)也不容忽視。

研究團(tuán)隊(duì)發(fā)現(xiàn)，每一段錄音都可能泄露我們的外貌信息。有興趣深入了解的讀者可以通過(guò)DOI:10.1038/s42256-024-00892-x訪問(wèn)完整論文。

倫理邊界的問(wèn)題也值得深思。研究團(tuán)隊(duì)使用了超過(guò)100萬(wàn)小時(shí)的音視頻對(duì)話數(shù)據(jù)，同時(shí) ，甚至在某些方面，通過(guò)分析患者之前的音視頻資料

十分钟免费观看视频高清,99久久无码一区人妻A片红豆,免费看成人午夜福利专区,国产古装妇女野外a片

波士頓大學(xué)突破：AI通過(guò)聲音還原說(shuō)話者視覺(jué)信息